如何理解ANOVA中的F值与P值

#如何理解ANOVA中的F值与P值| 来源: 网络整理| 查看: 265

ANOVA(analysis of variance)，方差分析，曾经以为它是一个多么复杂的简写。。。

一、理解F分布

要理解F分布，就要先理解卡方分布，要理解卡方分布，就要先理解正态分布。

1.正态分布的概率密度函数的表达式：

$f(x)=\frac{1}{\sqrt{2\pi}\sigma }exp(\frac{(x-\mu)^2}{2\sigma^2})$

画出它的图像：

集中分布在随机变量的均值附近，对称

2.卡方分布

如果有n个服从正态分布的随机变量x，我们从这n个随机变量创造出一个新的随机变量，让它们平方然后相加（至于为什么要这么创造，这得去看卡方分布的创造过程）：

$\xi =\sum_{i=1}^{n}x^2$

假如我们就给这个新的随机变量取名叫“卡方”，那么卡方的概率密度函数为：

公式打着太费时间了，转战这篇博文：

https://blog.csdn.net/huangjx36/article/details/78002996

补充一下，gamma函数的表达式为：

$\tau (\alpha)=\int_{0}^{\infty }\xi ^\alpha^-^1e^- ^\xi d\xi$

可以证明，这个gamma函数的值一定存在，而且大于0

为什么这个复杂？人家就是傲娇地服从这个规律并且被找出来了。

这里的k（或者n）叫做自由度，它决定了卡方分布的概率密度曲线长什么样，就像均值方差决定正态分布长什么样一样。

3.F分布

我们再从两个服从卡方分布的随机变量创造一个新的随机变量，我们取名叫F：

https://baike.baidu.com/item/F-%E5%88%86%E5%B8%83/6311687

那么F的概率密度函数表达式和图象为：

对，一个更复杂的表达式。图象的长相由两个参数，自由度1和自由度2决定。

2. 理解ANOVA中的F值和p值

ANOVA我这里是用来做特征选择。

我假设，同一特征不同组间的均值是一样的。那我有多大的概率接受这个假设？

现在我要做的就是根据我的数据计算出F值（其实按照我的理解，这里的F就是一个随机变量，只是这个随机变量不是可以像投硬币一样把这个事件本身当做一个随机变量这么简单，而是要根据组间的数据计算一下，计算的过程参考https://en.wikipedia.org/wiki/One-way_analysis_of_variance#Example）

从计算的过程可以推出，其实我们默认了组间方差或组内方差服从卡方分布。

这里的F值是一个比值，组间平均方差和组内平均方差的比值，当组间方差和组内方差一样（我们认为这两个组别差别很小），那么F值为1，组间方差远大于组内方差时这个F值也就会比较大。

下面这幅图是F分布的图像

enter image description here

可以看出，每一个F值都会对应一个p值，F值越大，p值越小，我就越不可能接受我的假设，也就认为组间的特征差别大。

所以，p值越小，这个特征就越该被保留下来。

建议看：

https://stats.stackexchange.com/questions/12398/how-to-interpret-f-and-p-value-in-anova

【本文地址】

公司简介

联系我们